Анализ данных о сердечно-сосудистых заболеваниях

(поиск инсайтов, составление рекомендаций стейкхолдерам)

Алексей Якиманский

Введение

Проблема:
Сердечно-сосудистые заболевания (ССЗ) — основная причина смертности. Раннее выявление рисков критически важно.

Цель исследования:
Анализ факторов риска и построение ML-моделей для оценки вероятности заболевания.

Задачи: 1. Исследовательский анализ данных (EDA). 2. Очистка от выбросов и аномалий. 3. Разработка предиктивных моделей. 4. Формирование бизнес-рекомендаций.

Стейкхолдеры

Ключевые выгодоприобретатели результатов исследования:

🏥 Медицинские учреждения - Оптимизация скрининга - Снижение нагрузки на врачей - Точность диагностики

👨‍⚕️ Врачи - Поддержка принятия решений - Приоритизация пациентов

👤 Пациенты - Персонализированные рекомендации - Раннее предупреждение

📉 Страховые компании - Оценка рисков - Превентивная медицина

Обзор данных

Источник: Cardiovascular Disease Dataset
Объем: 70 000 записей

Антропометрия: - age (возраст) - gender (пол) - height (рост) - weight (вес)

Образ жизни: - smoke (курение) - alco (алкоголь) - active (спорт)

Медицинские показатели: - ap_hi, ap_lo (давление) - cholesterol (холестерин) - gluc (глюкоза)

Целевая переменная: - cardio (наличие ССЗ)

Качество данных и очистка

В исходных данных обнаружены выбросы (ошибки ввода): - Нереалистичное давление (напр. -150) - Аномальный рост/вес

Целевая переменная



Вывод: Классы идеально сбалансированы (~50/50).

Это позволяет: 1. Использовать Accuracy как метрику. 2. Не применять методы оверсемплинга.

Портрет пациента: Пол и Возраст

  • Возраст: Медиана ~54 года. Пик риска смещен к 60 годам.
  • Пол: В выборке преобладают женщины (65%), что типично для медицинских обследований в данной возрастной группе.

Фактор веса (BMI)

Индекс массы тела — один из ключевых индикаторов.

Наблюдение: Менее 40% пациентов имеют нормальный вес. Группы риска (избыточный вес + ожирение) составляют большинство.

Образ жизни и показатели

Влияние вредных привычек и уровня метаболизма. - Холестерин: У 25% пациентов уровень выше нормы. - Активность: 80% заявляют о физической активности.

Корреляционный анализ

Какие факторы связаны сильнее всего?

Ключевые связи:

  1. Cardio ↔︎ Давление (самая сильная связь).
  2. Cardio ↔︎ Возраст.
  3. Cardio ↔︎ Вес/BMI.
  4. Связь Smoke ↔︎ Gender (мужчины курят чаще).

Моделирование: Подход

Для прогнозирования были выбраны два алгоритма:

  1. Logistic Regression (Линейная модель, интерпретируемая).
  2. Random Forest (Ансамблевый метод, улавливает нелинейности).

Процесс: - Разделение данных: 80% Train / 20% Test. - Stratified Split (сохранение баланса классов). - Стандартизация признаков (StandardScaler).

Результаты моделирования

Сравнение точности (Accuracy) моделей на тестовой выборке.


Random Forest показал лучший результат: ~73.6%

Это достаточный уровень для систем первичного скрининга и триажа пациентов.

Важность признаков

Какие факторы модель Random Forest считает самыми важными?

  1. Давление (ap_hi) — доминирующий фактор.
  2. Возраст — второй по значимости.
  3. Холестерин — замыкает тройку лидеров.

Рекомендации стейкхолдерам

  • Внедрить калькулятор риска на основе ML-модели.
  • Особое внимание пациентам с BMI > 25 и возрастом > 50.
  • Приоритизировать контроль систолического давления.
  • Регулярный мониторинг давления (критический фактор).
  • Контроль веса (коррелирует с давлением и ССЗ).
  • Снижение уровня холестерина.
  • Предлагать пакетные услуги: “Липидный профиль + Глюкоза + Измерение давления”.
  • Интегрировать скоринг в результаты анализов.

Заключение

  1. Данные: Проанализировано 70 000 кейсов. Выявлены и удалены аномалии.
  2. Факторы: Подтверждена ключевая роль гипертонии и возраста.
  3. Модель: Разработан прототип на базе Random Forest с точностью ~73.6%.
  4. Внедрение: Модель готова к пилотному тестированию в качестве инструмента поддержки принятия врачебных решений.

Спасибо за внимание!